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Особенности применения дискретизации 
| 
в задачах поиска глобального минимума 


В работе рассматривается задача нейросетевой минимизации квадратичного функционала в пространстве 
бинарных переменных. Для решения задачи предложен и исследован модифицированный алгоритм 
минимизации, основанный на применении метода дискретизации. Показано, что его применение дает 
уменьшение объема вычислений. 


Введение 


В настоящей работе рассматривается задача минимизации квадратичного функцио- 
нала 


Е=-(б, Аз) +2.(В,5), (1) 


в котором компоненты вектора $ принимают значения -=1. Матрица А — симметричная, с 
нулевой диагональю, а ее элементы — случайные независимые величины. Количество 
минимумов функционала Ё ($) велико и экспоненциально растет с ростом размерности 


задачи. Так уже при размерности вектора $ равной 200 число минимумов -—100000 и 
поэтому нахождение достаточно глубокого минимума сложная задача. 

Алгоритм минимизации. За основу процедуры минимизации взята нейросетевая 
модель Хопфилда [1]. Это полносвязная рекуррентная нейронная сеть из № нейронов, 


имеющих два состояния 5, =+1, 1=1, №. Энергия сети задана выражением (1). Такую 


сеть можно рассматривать как систему, решающую задачу бинарной минимизации: кон- 
вергируя в устойчивое состояние, сеть находит конфигурацию, соответствующую миниму- 
му энергии Е. Показано [2], [3], что при случайном поиске вероятность отыскания какого- 
либо минимума экспоненциально возрастает с ростом глубины этого минимума. Это оз- 
начает, что нейросеть с подавляющей вероятностью находит если не оптимальное решение 
(глобальный минимум), то одно из субоптимальных решений (локальный минимум). 

Мы будем рассматривать только асинхронную динамику сети Хопфилда, однознач- 
но приводящую к минимизации функционала энергии Ё: на каждом такте работы сети 
вычисляется одна из компонент (например, #-я) локального поля Н 


Н=-В+А.5, (2) 
и компоненте 5, присваивается значение 
5, = 5юпН.. (3) 


Эта процедура последовательно применяется ко всем компонентам 5 до тех 
пор, пока сеть не конвергирует в устойчивое состояние, соответствующее минимуму 
энергии. 
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Для уменьшения объема вычислений в работе [4] предложен метод дискретизации 
матрицы А ‚ т.е. выделение из матричных элементов среднего значения 4) и замены 


остатка матрицей С ‚ Нормированные элементы которой имеют целочисленные значения 
в диапазоне [Нт;+ т], где т- число градаций. При таком подходе поиск минимума 


Е (5) заменяется поиском минимума дискретизованного функционала 
= —(,С$)+2.(ъ,$), (4) 


если 4 =0. 
Оптимизация функционала (4) проводится аналогично оптимизации функционала (1). 
На каждом такте работы вычисляется одна из компонент локального поля В 
в =-—65+С.5 (2а) 
и компоненте присваивается значение 


5; = $101, . (За) 


Качество такой аппроксимации будет зависеть от выбранного числа градаций и 
определяется функцией распределения. С увеличением числа градаций максимум 
функции распределения смещается влево (рис. 1), в сторону более глубоких минимумов, 
что увеличивает вероятность их нахождения. Так, для «энергии» ОЕ = 0,05 имеем: при 
переходе от т=1 к т=8 плотность состояний увеличится в 1,5 раз. На рис. 1 пред- 
ставлены функции распределения плотности вероятности по «энергии» функционала (1) 
построенных на минимумах 5(5) для разного числа градаций. По оси Х отложена «энер- 


гия», которая определяется величиной дЕ = (Е, -Е )/ Ех › где Ех - энергия глобального 


минимума. 
"Епегду", д 
0 0,05 0,1 0,15 0,2 0,25 0,3 


Зе @5БиНоп Бу епегду 


Рисунок 1 — Распределение плотности вероятности состояний по энергии 
для разного числа градаций 


Минимум функционала. В данной работе применяется двухэтапный алгоритм [5]. 
Процесс минимизации функционала (1) начинается с некоторой случайной точки простран- 
ства $. Подчиняясь решающему правилу (За), сеть конвергирует в некоторое устойчивое 


состояние $», являющееся минимумом функционала =. Если из этой точки продолжить 


спуск с решающим правилом (3), то сеть конвергирует в состояние $, , соответствующее 
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минимуму функционала (1). На всем пути $ —>$, —>$, величина ошибки (вероятность 


ошибки Р в направлениях градиентов) только уменьшается. С ростом числа градаций т 
величина ошибки убывает как 
1 


Р=——. (4) 
п(2т + 1) 
Эффективность минимизации определяется величиной ОЕ = (Е .-Б) )/ Е`» где 
* 
Ел =Е($%.) — энергия минимума $, дискретизированного функционала, а Е\ = Е($,) — 
энергия ближайшего к нему минимума $, ‚ в который мы бы спустились при использо- 
вании исходного решающего правила (3). Показано [4], что эффективность минимизации 


дЕ =Р, (5) 


из которого следует, что разница в энергиях с ростом т убывает как ОЕ — т" . 


При этом Хеммингово расстояние между минимумами функционала Ё и его 
аналога = определяются простым соотношением 
а=\МР. (6) 
Хеммингово расстояние не превышает значения 4 = 0,11, когда т =1, и снижается 
до значения 4 = 0,02№ при т = 16. 
Сказанное подкрепляется результатами эксперимента (рис. 2). На рис. 2 кривые 1, 2, 
4 — функции распределения состояний: начального $, дискретизированного $" и конеч- 
ного $, . Кривая 3 — распределение состояний исходного функционала. На рис. 2 они же 


отмечают точки максимумов функций плотности. Расстояние между этими максимумами 
на графике соответствует в точности формуле (5). Видно, что величина первого участка 


пути $ —> $, значительно больше второго участка $, —> $,. Преимущество двухэтапного 


алгоритма в том, что первая часть пути $ ->$% проходится с большей скоростью. 


Вследствие чего достигается общее увеличение скорости работы алгоритма. Так же 
функция распределения минимумов 2-этапного алгоритма лежит левее распределения 
исходного алгоритма. Таким образом, вероятность нахождения глубоких минимумов 
двухэтапным алгоритмом выше, чем простым методом. 


Е/Е 
Рисунок 2 — Функции распределения состояний: начального $ (кривая 1), 
дискретизированного $, (кривая 2) и конечного $, (кривая 4). 
Кривая 3 — распределение состояний исходного функционала 
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Работа с укороченной арифметикой 


Полученные результаты дают основу для применения метода дискретизации, что 
означает возможность применения чисел малой разрядности. При этом для хранения 
матричного элемента при выборе параметра т=1 достаточно 2 битов, а для т=15 
достаточно половины байта. В дальнейшем, размер чисел матрицы А мы будем называть 
исходным форматом, а р -— количество чисел малой разрядности, которое упаковывается 
в исходный 4-байтный формат. 

Основной объем вычислений по алгоритму Хопфилда приходится на вычисление 
градиента, т.е. на вычисления скалярных произведений 2 векторов. Поэтому возможность 
такого представления элементов А позволяет увеличить быстродействие алгоритма. 
Например, сложение пары вещественных чисел в 4-байтном формате требует | такт 
процессорного времени. За то же время можно сложить 4 пары целых чисел в байтном 


формате. 
Ускорение алгоритма определяется величиной 
1 
9=—°, 
1 


где Го — время работы алгоритма, / -— время работы алгоритма, когда элементы 
матрицы упакованы. 

На рис. 3 приведен пример увеличения скорости работы алгоритма (т =1, пара- 
метр упаковки р=8). По оси ординат отложено ускорение 9, а по оси абсцисс — размер- 
ность нейросети № . С увеличением размерности нейросети его ускорение увеличивается и 
достигает своего предельного значения 9 = 7,3. 


0 2000 4000 6000 8000 10000 12000 № 


Рисунок 3 — Ускорение алгоритма при использовании упаковки чисел малой 
разрядности 


На скорость работы сети так же влияет исходный формат чисел. Например, 
если элементы исходной матрицы А вещественные (4 байта), то время работы 
возрастет до 1.4, а для вещественных 10 байтных чисел возрастет до 6,3. 

Алгоритм расчета нейронной сети Хопфилда основан на последовательном 
вычислении компонент градиента Н при каждом изменении состояния нейрона. 
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0 10 20 30 40 Т 
Рисунок 4 — Количество переворотов спинов на каждой итерации. 
Размерность нейросети М№ = 4000 


На рис. 4 показано, как изменяется число изменений состояний нейронов от номера 
итерации (одна итерация соответствует проверке всех № нейронов). На вертикальной оси 
отложена доля измененных нейронов и в процентах. Как видно из рис. 4, с увеличением 
числа шагов число нейронов, которые изменяют свое направление, становится малым. 
Это означает, что направления компонент Н также редко изменяется. Поэтому вычисле- 
ние на каждом шаге компоненты вектора Н не эффективно. Вычислительная сложность 


алгоритма —27ТМ№?, где Т -— число итераций. С увеличением размерности сети число 
итераций Т’растет (рис. 55). Например, при размерности № =100 число шагов Т =5, а 
при № =10000 число шагов Т = 80. 

В настоящее время используется другой метод расчета. В исходном состоянии $ 
вычисляются все компоненты Н. На каждом шаге процедуры при изменении состояния 
нейрона вектор Н модифицируется по правилу Н =Н+ 2(А). ‚ если направление спина 


положительно/отрицательно. (А), — вектор строки с номером текущего нейрона. Объем 
вычислений компонент Н в исходном состоянии равен № Е При перевороте каждого 
спина производится М№ операций. Число переворотов спинов не превышает М№ (рис. 5а), 
поэтому вычислительная сложность такого алгоритма -— (1 + а)№ ас <1. Отношение 
объемов вычислений такого метода к исходному методу - Т, (т в 1). В дальнейшем, в 
качестве исходного алгоритма мы используем метод с обновлением компонент Н. 


[] 2000 4000 6000 8000 10000 м ° 2000 4000 6000 8000 10000 м 
(а) (5) 


Рисунок 5 - (а) — Полное число изменений нейронов при увеличении 
размерности нейронной сети М ; (Ъ) — Изменение числа итераций в зависимости от 
размерности сети № 
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Модификация алгоритма обновления при использовании чисел малой разрядности 
достигается их упаковкой в исходный формат. В результате этого достигается параллель- 
ное выполнение операций сложения и умножения, что приводит к увеличению скорости 
работы. На рис. 6 показано ускорение алгоритма при упаковке ( р=8, т = 1) для нейрон- 
ных сетей различной размерности. Установлено, что достигаемое ускорение 9=5. 
При упаковке р =4 в исходный формат ускорение составляет 8 = 3,8 (т < 15) ‚ а при 
р=16 (т= -0=8. 


9 НЫ бобы, ыы ее Дер Е я О ПЕ 


0 1000 2000 3000 4000 5000 6000 7000 8000 9000 № | 


Рисунок 6 — Ускорение, получаемое при упаковке чисел (р — 8) по сравнению с 
обычным методом 


Алгоритм случайного поиска 


Проведем анализ быстродействия двухэтапного алгоритма при использовании 

упакованных данных (т =, р= 8) на первом этапе. В этом случае 
Н 

ви 
ТТ О+0, 

На Г этапе число итераций при минимизации 5(5) равно числу итераций исход- 
ным методом [5]. Поэтому объем вычислений на первом этапе — О, =О" ‚ 5. На П этапе 
число итераций Т’ мало [5], соответственно мало число изменений в состояниях нейро- 


нов. Поэтому основной объем вычислений приходится на вычисление градиента нб 


в промежуточных состояниях и составляет 0, = [бы / 2. В этом случае ускорение алго- 
ритма составит 8 = 1,4. 

Лимитирующим фактором, препятствующим увеличению быстродействия 2-этап- 
ного алгоритма, является объем вычислений градиентов Н промежуточных состояний $%. 
Для его уменьшения на П этапе предлагается использование наиболее глубоких со- 
стояний $„. Например, если мы продолжим спуск только с половины всех точек, то 
ускорение составит 

Н 
9 = Е #2,2. 
О, +0,50, 


Конечно, при таком подходе есть шанс получить несколько худшее решение. 
Вероятность этого можно оценить, используя экспериментальные результаты (рис. 7). 
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Для этого распределение минимумов $» разбивалось на левую и правую области от- 


носительно пика распределения, и определялась вероятность найти самый глубокий 
минимум при стартах из каждой области. На рис. 7 видно, что самый глубокий мини- 
мум с вероятностью 96% находится из состояний левой области, в то время как правая 
область дает вероятность близкую к нулю. Поэтому состояния правой области могут не 
участвовать на П этапе поиска. 


РгобаБУЙу о! Япайта о! Чеерез! пилйтит, % 


|. 1000 2000 3000 4000 5000 6000 № 
Рисунок 7 — Вероятность попадания в самый глубокий минимум из левой и 
правой областей распределения $. 


* 


Качество алгоритма зависит от размера области состояний $,, которые исполь- 

* * 
зуются на П этапе, и определяется эффективным расстоянием ОЁ = (Е. —Е )/ Ед ›где Ед — 
самый глубокий минимум, найденный со всех состояний $,, Е — самый глубокий 


минимум, найденным при стартах из некоторой части состояний $„. Начало области со- 


ответствует наиболее глубокому минимуму дискретизированной сети. Конечная точка 
(граница области) — свободный параметр. 

С ростом величины стартовой области эффективное расстояние монотонно убывает 
(рис. 8), а качество минимизации улучшается, и после некоторого значения обращается в 
НОЛЬ, Т.е. в этой области находится самый глубокий минимум. 

С помощью ОЕ можно оценить Хемминогово расстояние р между глобальным 
минимумом Еу и самым глубоким минимумом Е, найденным при стартах из отрезка. 


Действительно, при изменении состояния одного нейрона, энергия меняется в среднем на 
величину е. Поскольку большая часть минимумов находится в области Е, Зо; и 


отношение о’; /Е, <<1,тоЁ, -Е,. Е, -еМ. Тогда 
р 

ОЕ — —. 
№ 


Таким образом, достаточно подобрать область состояний 5% ‚ для которой вы- 


полняется условие 

Р=одЕ.М-1. (7) 

Для размерности сети № =100 это условие будет выполняться в случае, когда гра- 

ница области отстоит от максимума функции распределения на расстоянии 1,80, . С уве- 

личением размерности сети при фиксированном эффективном расстоянии размер области 

уменьшается (рис. 9), ее граница смещается в сторону более глубоких дискретизи- 
рованных минимумов, что уменьшает объем вычислений. 
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Рисунок 8 — Зависимость эффективного расстояния от размера стартовой области. 
Размер стартовой области задается в единицах о, функции 


+ 
распределения энергии = ( и ) 


[ 200 400 600 800 1000 М 


Рисунок 9 — Эффективное расстояние в зависимости от размерности сети 
для трех значений размера стартовой области 


Действительно, распределение промежуточных состояний подчиняется нормаль- 
ному закону. Количество минимумов $, , находящихся на расстоянии более 2,00, от 


максимума функции распределения к общему их числу составляет меньше 0,05. В этом 
случае увеличение скорости работы алгоритма составит 


ОН 
О, +0,050, ^ 


^ 
р 


4. >. 


Данная величина ускорения верна для размерностей нейронной сети более 200. 

Сравнение работы 2-этапного алгоритма с обычным (рис. 10) показывает, что моди- 
фикация алгоритма увеличивает вероятность нахождение глубоких минимумов. Так, на 
рис. 10 представлены две кривые (экспериментальные результаты). Верхняя кривая 
соответствует вероятности нахождения 2-этапным алгоритмом лучшего или равного 
минимума, чем алгоритмом Хопфилда. Нижняя кривая — вероятность того, что найден- 
ный минимум хуже, чем при простом алгоритме. Видно, что с увеличением размерности 
сети вероятность найти более глубокий минимум модифицированным алгоритмом всегда 
больше 0,5 по сравнению с исходным алгоритмом. 
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Рисунок 10 — Вероятность найти более (кривая 1) глубокий минимум или менее 
(кривая 2) глубокий с помощью 2-этапного алгоритма 


Выводы 


Предложена процедура дискретизации, позволяющая использовать числа малой 
разрядности для увеличения быстродействия процедуры минимизации квадратичного 
функционала. Для этого был разработан 2-этапный алгоритм на основе нейросетевой 
модели Хопфилда. Ускорение работы алгоритма для сетей размерностью более 200 
превышает 4,5. Качество 2-этапного алгоритма по нахождению глубоких минимумов 
выше, чем у исходного метода. 
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